#
#导入数据库接口
from pymongo import MongoClient
#创建数库并连接
#client=MongoClient()
#database=client['people']
#collection=database['maoyan_data']
import requests
#from lxml import etree
import lxml.html
import pandas as pd
n=1
DATA=[]#存放所有数据
for page in range(10):
    # 爬取URl和页数
    
    url='https://maoyan.com/board/4?offset=0'+str(page*10)
    headers = {
        "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36'
    }
    
    pat = requests.get(url=url, headers=headers)
    data = pat.text #网页源代码

    selector=lxml.html.fromstring(data)
    
    #xpath.text()函数
##    排名
    pm_data=selector.xpath('//*[@id="app"]/div/div/div/dl/dd/i/text()')
#    //*[@id="app"]/div/div/div[1]/dl/dd[1]/i
    #电影名，主演，上映时间
    mrs_data=selector.xpath('//div[@class="movie-item-info"]')
    mov_title=mrs_data[0].xpath('//p[@class="name"]/a/text()')
    zyr_data=mrs_data[0].xpath('//p[@class="star"]/text()')
    sysj_data=mrs_data[0].xpath('//p[@class="releasetime"]/text()')
#    print(mov_title,zyr_data,sysj_data)
    #图片
#    tu_data=selector.xpath('//div[@class="main"]/dl[@class="board-wrapper"]/dd/a/img[2]/a/@src')
   #评分
    pf_data=selector.xpath('//div[@class="movie-item-number score-num"]')
    pf_data1=pf_data[0].xpath('//p[@class="score"]')
    sc_data=pf_data1[0].xpath('//i[@class="integer"]/text()')[0]
    fr_data=pf_data1[0].xpath('//i[@class="fraction"]/text()')[0]
    score_data=sc_data+fr_data#电影评分
    DATA.append([pm_data,mov_title,zyr_data,sysj_data,score_data])
    print(pm_data,mov_title,zyr_data,sysj_data,score_data)
    
    dt={'排名':pm_data,'电影名':mov_title,'主演':zyr_data,'上映时间':sysj_data,'评分':score_data}
    n=n+1
#    print(dt)
#    dt=pd.DataFrame()
#    DATA.append(dt)
#转化为数据框
date=pd.DataFrame(DATA)
#    保存为excel
index = ['排名','电影名','主演','上映时间','评分']
date.to_excel('猫眼电影榜单数据(xpath).xlsx',index=0,header=index)
#保存到数据库
#collection.insert(DATA)